半年後にAIはいったいどうなっているのか 2025年上半期
ひとまず画像系でも、案外DeepSeek-R1によって流行りだしているreasoning蒸留が組み込まれることで案外指や腕が増える問題解決するのでは?説を唱えてみるmorisoba65536.icon vlmとの統合なども考えられる…がネックはやはりVRAM
サービスベースのモデルはどうしても色々な社会的制約がかかるので性能が上がった…とか言われてもその性能を自由に使わせてはくれないので…となる
Janus Pro:難しいかなと言っていたvlm+画像生成、なんか半年すら立たずずに出たんだが?(生成AI RTA Vision2Image Any%)morisoba65536.icon ただ、期待した「自分で画像見れるモデルなら手足顔の破綻を自分で画像修正できるやろ」は出来るわけじゃなかった🫠morisoba65536.icon
vlm+reasoningはそれなりに早く来そう、多分どっかが上半期には出しそうmorisoba65536.icon
最悪モデル差分でLora作ってそれでreasoning能力移植できるならQwen2.5-Math(R1 qwen7bの素体とされている)とR1(Qwen 7b)で差分とってポン付けすれば…と思ったがVL版は2ベースで2.5ではなかったか…(微妙に互換性が無い) 計算資源的にローカル動作は難しそうだけど、reasoningとしてイメージ映像作って脳内シュミレート的なモデルもそろそろ理屈上は出せるんじゃないかな…vlm+動画生成とかなるんで今の一般向けハードウェアではどう考えても動きそうにないが…morisoba65536.icon R1関連、Claude 3.5 Sonnetとの組み合わせで性能が激増する報告が多数なので次世代Claude(4になる?)の性能に期待が出来る…とにかく地力がむちゃくちゃ高いのがR1でプロンプト工夫することでその性能をとことん引き出せてる感じ reasoning能力の蒸留は既にめっちゃ流行ってるけど、o3-miniが既にコーディングタスクではR1を上回ったりしてるので、ちゃんと蒸留できれば20B以下(つまりローカルで現実的に動くレベルで)でこのレベルの再現ができるのではないか…?と期待したいmorisoba65536.icon そう考えるとおそらくV3系列は共通weightが概ね4Bほどで3つの専門家モデルを呼び出している構造なんかな?(憶測してないでコード見ろ、って言われたらはい…としか言えないが)morisoba65536.icon
セキュリティ面から
データセンターへの投資が増える
運営のカントリーリスク等はあるがモデル自体が公開されてることもあり、DeepSeek-R1辺りが動かせる環境は、データセンターの一つの基準になりそう(自鯖で動かす分にはそのへんの不安要素のかなりの部分が減らせるので)morisoba65536.icon 上半期にはまず間に合わないだろうけど下半期〜来年にかけてはR1+αを推論するのに向いてる推論特化構成みたいなのはサービス的には(ハードウェアがでてくるなら)広まりそうな需要は出てきた(それくらいに体感レベルでR1は実用レベルの性能してる)
そういう状況になると企業向けの推論サービスを想定したモデルは400b〜700bクラスのものが普通に増えそうではある(大半はファインチューンモデルだろうが、基板モデルにしても「そのライン」を基準にして作りやすくもなる)(ご家庭で動かすのは辛い…😢)morisoba65536.icon
動画生成AIへのパラハラの訪れnomadoor.icon
データセットをDiTに食わせる勝負が、今、始まる…
動画生成AIの下流タスクとしての画像生成
AI登場以前の既存の制作手法に無い新しいワークフローや、動画を使った簡単なLoRA手法ができる気がする
気になる👀morisoba65536.icon
振り返り
nomadoor.icon
動画生成AIを画像生成に使うのは結構あったけど、1f推論みたいな方向だとは思わなかったなぁ
FramePack初期のキャラ回転させたりするあたりが一番イメージに近かった
gpt-image-1からAI画像編集タスクに注目が移った